Partitioned এবং Bucketed Table এর জন্য Table Design

Big Data and Analytics - অ্যাপাচি ইমপালা (Apache Impala) - Data Types এবং Table Creation

175

Impala তে ডেটা সংরক্ষণ এবং সংগঠন করার জন্য Partitioning এবং Bucketing দুটি গুরুত্বপূর্ণ কৌশল ব্যবহার করা হয়। এই দুটি কৌশল ডেটা প্রক্রিয়াকরণে দক্ষতা এবং গতি বৃদ্ধি করতে সাহায্য করে। Impala এর Partitioned এবং Bucketed টেবিল ডিজাইন ডেটার উপর কার্যকরী অপারেশন সম্পাদন করতে সহায়তা করে, বিশেষ করে বড় ডেটা সেটের ক্ষেত্রে।

Partitioned Table Design

১. Partitioning কী?

Partitioning একটি পদ্ধতি যার মাধ্যমে একটি টেবিলের ডেটা ভিন্ন অংশে ভাগ করা হয়, যা Partition Columns এর ভিত্তিতে হয়। প্রতি পার্টিশন একটি পৃথক ফোল্ডারে সংরক্ষিত হয় এবং এটি হাডুপ ফাইল সিস্টেম (HDFS) এ পার্টিশন ডিরেক্টরি হিসেবে রাখা হয়। এইভাবে, ডেটা সঞ্চয় এবং রিডিংয়ের সময় প্রতিটি পার্টিশনের উপর নির্দিষ্ট কোয়েরি চালানো সম্ভব হয়, যা কোয়েরির গতি বাড়ায়।

২. Partitioned Table তৈরি করা

Impala তে একটি টেবিল Partition করতে হলে, টেবিলের স্কিমা ডিজাইন করার সময় PARTITIONED BY ক্লজ ব্যবহার করতে হয়।

উদাহরণ:

CREATE TABLE sales (
    sale_id INT,
    sale_date DATE,
    amount DECIMAL(10, 2)
)
PARTITIONED BY (sale_year INT, sale_month INT)
STORED AS PARQUET;

এখানে, sale_year এবং sale_month এর ভিত্তিতে টেবিলটি পার্টিশন হবে, যার ফলে ডেটার ভলিউম অনেক কম হবে এবং কোয়েরি পারফরম্যান্স অনেক ভালো হবে যখন সেগুলি নির্দিষ্ট সময়ের জন্য চালানো হয়।

৩. Partitioning এর সুবিধা

ডেটা সিলেকশন: পার্টিশনিংয়ের মাধ্যমে নির্দিষ্ট পার্টিশনটি এক্সেস করা সহজ হয়, যার ফলে কোয়েরি গতি অনেক বৃদ্ধি পায়।
ফাস্ট লোডিং: বড় ডেটা লোড করার সময় নির্দিষ্ট পার্টিশনে ডেটা সংরক্ষণ করা হয়, যা লোডিং প্রক্রিয়া দ্রুত করে।
ডেটা ম্যানেজমেন্ট: পার্টিশনিংয়ের মাধ্যমে ডেটা ম্যানেজমেন্ট সহজ হয়, যেমন পার্টিশন ভিত্তিক ডেটা আর্কাইভ বা ডিলিট করা।

Bucketed Table Design

১. Bucketing কী?

Bucketing একটি পদ্ধতি যেখানে টেবিলের ডেটাকে Bucket Columns ব্যবহার করে একাধিক বাকেট-এ ভাগ করা হয়। প্রতিটি বাকেট একটি পৃথক ফাইল হিসেবে সংরক্ষিত হয় এবং সেগুলিকে সিলেক্ট করার জন্য একটি হ্যাশিং পদ্ধতি ব্যবহার করা হয়। Bucketing সাধারণত তখন ব্যবহার করা হয় যখন ডেটার খুব ভালোভাবে সোজাসুজি বিভাজন (even distribution) প্রয়োজন হয়।

২. Bucketed Table তৈরি করা

Impala তে একটি টেবিল Bucketing করতে হলে, টেবিল তৈরি করার সময় CLUSTERED BY ক্লজ ব্যবহার করতে হয়।

উদাহরণ:

CREATE TABLE employee (
    emp_id INT,
    emp_name STRING,
    department STRING
)
CLUSTERED BY (emp_id) INTO 10 BUCKETS
STORED AS PARQUET;

এখানে, emp_id কলামের উপর হ্যাশিং করে ১০টি বাকেটে ডেটা ভাগ করা হবে। এই পদ্ধতি ডেটা সংরক্ষণকে আরও সুষম এবং ইফিসিয়েন্ট (efficient) করে তোলে।

৩. Bucketing এর সুবিধা

ইফিসিয়েন্ট জয়ন (Efficient Joins): Bucketing ডেটা এক্সেসের জন্য উপযুক্ত যখন বিভিন্ন টেবিলের মধ্যে জয়ন করতে হয়। একটি সঠিকভাবে bucketed টেবিল দ্রুত জয়ন করতে সহায়তা করে।
ডেটার সমান বিভাজন: Bucketing দ্বারা ডেটা সমানভাবে ভাগ করা হয়, যা কোয়েরি প্রসেসিংয়ে ইফিসিয়েন্সি এনে দেয়।
ডেটা রিডিং: কোয়েরি চলাকালে নির্দিষ্ট বাকেটের ডেটা এক্সেস করা সহজ হয়, যার ফলে রিডিং গতি বৃদ্ধি পায়।

Partitioned এবং Bucketed Table এর মধ্যে পার্থক্য

বৈশিষ্ট্য	Partitioned Table	Bucketed Table
ভাগ করার ভিত্তি	ডেটাকে বিভিন্ন পার্টিশন কলাম দ্বারা ভাগ করা হয়	ডেটাকে বিভিন্ন বাকেট কলাম দ্বারা ভাগ করা হয়
ডেটা এক্সেস	নির্দিষ্ট পার্টিশন থেকে ডেটা এক্সেস করা হয়	নির্দিষ্ট বাকেট থেকে ডেটা এক্সেস করা হয়
পারফরম্যান্স	পার্টিশনিং কোয়েরির গতি বাড়ায়, বিশেষ করে টাইম-সিরিজ ডেটায়	Bucketing কোয়েরির গতি বাড়ায়, বিশেষ করে জয়ন অপারেশনে
ব্যবহার	সাধারণত সময়ভিত্তিক বা লজিক্যাল পার্টিশনিং এর জন্য ব্যবহৃত	একে অপরের সাথে জয়ন বা সমান ভাবে ডেটা ভাগ করার জন্য ব্যবহৃত
স্টোরেজ	পার্টিশন একটি আলাদা ডিরেক্টরিতে থাকে	প্রতিটি বাকেট একটি আলাদা ফাইল হিসেবে থাকে

পার্টিশন এবং বাকেটিং এর একত্রিত ব্যবহার

Impala তে আপনি একই টেবিলকে Partitioned এবং Bucketed দুটি পদ্ধতি একসাথে ব্যবহার করতে পারেন। এইভাবে, আপনি ডেটাকে পার্টিশন করে রাখতে পারেন এবং প্রতিটি পার্টিশনের মধ্যে আরও ভালোভাবে Bucketing করতে পারেন। এতে ডেটা সিলেকশন এবং এক্সিকিউশন গতি আরও বৃদ্ধি পায়।

উদাহরণ:

CREATE TABLE sales (
    sale_id INT,
    sale_date DATE,
    amount DECIMAL(10, 2)
)
PARTITIONED BY (sale_year INT)
CLUSTERED BY (sale_id) INTO 10 BUCKETS
STORED AS PARQUET;

এখানে, প্রথমে sale_year দ্বারা পার্টিশন করা হয়েছে এবং তারপর sale_id দ্বারা বাকি ডেটাকে ১০টি বাকেটে ভাগ করা হয়েছে।

এভাবে Impala তে Partitioned এবং Bucketed টেবিল ডিজাইন করে আপনি ডেটার সঞ্চয় এবং এক্সিকিউশন গতি আরও বৃদ্ধি করতে পারেন, যা বড় ডেটা সেটের বিশ্লেষণে অত্যন্ত কার্যকরী।

Content added By

Rezwan Siddiki Tamim

Impala এর Supported Data Types CREATE TABLE Statement দিয়ে Table তৈরি Managed এবং External Table এর ধারণা

Partitioned এবং Bucketed Table এর জন্য Table Design

Partitioned Table Design

১. Partitioning কী?

২. Partitioned Table তৈরি করা

৩. Partitioning এর সুবিধা

Bucketed Table Design

১. Bucketing কী?

২. Bucketed Table তৈরি করা

৩. Bucketing এর সুবিধা

Partitioned এবং Bucketed Table এর মধ্যে পার্থক্য

পার্টিশন এবং বাকেটিং এর একত্রিত ব্যবহার

Promotion

Satt AI

Hi, আমি SATT AI!

Partitioned এবং Bucketed Table এর জন্য Table Design

Partitioned Table Design

১. Partitioning কী?

২. Partitioned Table তৈরি করা

৩. Partitioning এর সুবিধা

Bucketed Table Design

১. Bucketing কী?

২. Bucketed Table তৈরি করা

৩. Bucketing এর সুবিধা

Partitioned এবং Bucketed Table এর মধ্যে পার্থক্য

পার্টিশন এবং বাকেটিং এর একত্রিত ব্যবহার

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!